人类基因组到底有多少个基因

Original montreal 生信人 2022-06-21

人类基因组究竟有多少基因兼谈Salzberg最新bioRxiv研究

“人，宇宙之精灵，万物之灵长”。科学家，这一人类中的所谓精英群体自然担负起了为人类的自负找寻基因证据的重任。早在上世纪六十年代，生物学家就开始了对人到底有多少基因的探索的坎坷之旅。

1964年，来自德国海德堡大学的Friedrich Vogel独闯龙潭，孤身一人进行了历史上对于人类基因组数目的第一次计算。为何是1964年？又到底需要多少基因才能创造位居万物灵长的人类？

Vogel计算的第一个基石源于此前对于人类染色体重量的测量。Mirsky and Ris (1)通过实验得出人类单倍体的染色体大小为2.72 × 10⁻¹² g。综合其他实验结果，为简明，Vogel选择了3 x 10^-12g作为人类单倍体基因组的重量。已知一对核苷酸的质量为1.026 x 10^-21g（GC对和AT对相差甚微），据此Vogel估算人类基因组的大小为30亿个碱基对——这一估算与今天的测序结果惊人接近。

Vogel的第二个基础来自上世纪60年代初对血红蛋白（hemoglobin）的alpha和beta亚基的氨基酸序列的破解，结果表明它们分别有141和146个氨基酸。Vogel认为，根据斯韦德贝里法则（Svedberg's law），许多蛋白是多亚基（multi-subunit）结构，每个亚基的分子量大约是17500KDa。而如果20种氨基酸的平均分子量为128KDa，则可以计算出每个蛋白的长度大约为150个氨基酸——这也是Vogel计算的第一个基本假设。当时，克里克等人刚刚提出了密码子（codon）的规则(2)，人们知道一个氨基酸由DNA上的三个碱基编码。综上，Vogel计算出编码一个人的蛋白大致需要450碱基。这一数目在今天看来，尽管是低估了，但也过得去。Vogel引用的斯韦德贝里法则的冠名者斯韦德贝里，是大名鼎鼎的胶体理论学家、1926年诺贝尔化学奖得主，大概该结果也代表了当时人类的最高认知水平吧。

如果到此为止，Vogel的这篇文章可以说是没有什么破绽的，但大概也不会入Nature挑剔的编辑和审稿人的法眼。为计算人类基因的总数，Vogel进一步作了下面两假设：一是编码每个基因的序列都是连续的，二是人类基因组从头至尾全都是编码蛋白的序列（也就是不存在所谓的非编码区）。于是，Vogel得出了人类基因组含有6.7x10⁶个基因的结论。

这一在今天看起来有些滑稽的结果在当年确是合理且引人入胜的。要知道，Vogel做出得一结果的时候距离Sharp和Roberts发现内含子尚有13年之久，且人类对于基因组中非编码区更是一无所知。总之，这些因素，都严重影响了Vogel的计算，导致其极其严重高地估了基因数目。

人类基因组的注释着极为重要的意义，对包括外显子测序（更多内容请看外显子测序课程），GWAS，医学研究，进化及群体遗传分析等在内的领域都有重要价值。对人类基因组基因数目的估算也在接下来的几十年间令各国学者趋之若鹜。

1990年，来自美国国家健康中心（NIH）和美国能源部（DOE）的在人类基因组项目报告中进行了另一次计算，作者认为每个基因的长度大概是3万个碱基对，且认为非编码区的长度可以忽略。最终，作者们得到的结论是10万个基因。

后面，又有多篇paper对人类基因组的数目进行计算，结果大概是5万-10万个基因之间(3-5)。2000年6月，来自TIGR（The Institute for Genomic Research）的几位科学家通过对于EST序列的分析和新算法的设计，将这一数字提高到了12万(6)。殊不知，这也是人类对于自己基因数目的最后一次超过10万的估计。仅半年后，这篇文章的作者们就扇了自己的脸——但没删自己的论文——他们通过correction的形式修改了自己的结论，将预测结果缩小到56,960 ~ 81,273。

2001年，人类基因组测序——生物界的阿波罗登月计划——在激烈的竞争和全世界人民的关注下完成。之所以有竞争，是因为有两家团队独立地展开了对人类基因组的测序。一支是包括我国学者在内来自六个国家的国际合作项目，他们发表在Nature上的文章预测人类基因组含有3万~4万个基因(7)。另一边厢，特立独行的科学狂人克雷格·文特尔（J. Craig Ventor）由于所提出的鸟枪法（shotgun）思路不被国际合作组织采纳，干脆另立门户于1998年成立赛雷拉公司（Celera Genomics）枪挑六国联军，并迎头赶上（文章同时刊发在Science上），最后得到的人类基因组大小为26,588“高可信度”（笔者注）加~12000弱支持度（week supporting evidence）基因。这两个结果，无论哪一个，都让人类对自己基因数目有了重新认识：它远比人类早前的想象要小。

2004年，国际合作团队对人类基因组序列进行了一次重要更新，将自己之前的预测由3-4万缩小到2-2.5万(8)。人们惊讶地发现，自己的基因竟然少过当时刚刚完成测序的模式植物、拟南芥（Arabidopsis thaliana）——一种连运动功能都不具备的野草，也同分类学上被人类归为低等动物、大小仅1-2毫米的秀丽隐杆线虫（Caenorhabditis elegans）相差不多。生物学家曾经认为生物的复杂性和基因数目成正比，但在如山的铁证面前，自诩为万物灵长的人类要改变下自己的思维了。

后来的研究将人的基因数继续缩小。2009年，人类对于自己的认识达到了最为“谦卑”的状态(9)——Mammalian Gene Collection团队称人类基因组只有18877个基因(10)。不过好在到2017年底，NCBI的refseq数据库中的最新版本的人类基因组注释还是让人基因组的基因数目突破了20000大关（20,054个蛋白编码基因）。而在另一家常用的数据库Gencode里，注释了19817个基因(11)。

5月29日，享有Bowtie之父美誉的著名生物信息学家Steven Salzberg在bioRxiv生物学预印本服务器上发布了自己团队的最新成果：通过对9,795个RNA-seq实验结果的整合、分析，对人类基因组进行了重新的注释。这项成果实际上也是GTEx项目Genotype-Tissue Expression Project）的一个组成部分。

Btw：Salzberg，这位来自约翰霍普金斯大学的科学家是开放科学（open science）的忠实拥趸，近期就有大量manuscript投放到bioRxiv上，这一点在生信人早前的文章里也有报道（水熊虫基因组乌龙事件的意义）。

作者采用的分析方法如下图所示，其中用到的好几个软件都打着“Made in Salzberg Lab”的标签。

图片来自(11)，版权CC-BY4.0

作者首先对收集得到的近10000个RNA-seq样本进行转录组组装，得到了30,467,424个转录本（transcript）。作者用一些列条件定义了protein coding gene，包括TPM阈值，ORF长度、在其他生物种有无BLAST hit等。通过和目前人类基因组注释的比较，作者发现了1,178个新的蛋白基因。加上和Refseq有overlap的转录本，作者们最终得到21,232个编码蛋白质的基因。作者们接下来对refseq里面注释的15,779个长非编码RNA（lncRNA）进行了“质量检验”。作者进行了ORF预测，截取含有较长ORF的lncRNA基因，对它们在其他物种中进行BLAST搜索，如果达到一定标准（E-value of 10-15，75% length）则认为是潜在的protein coding gene。又经过其他一些检测之后，作者最终得到了21306个编码蛋白质的基因。

对没有比对到编码蛋白基因的转录本，作者把它们归为非编码RNA。作者找到了3,819个lncRNA 基因位点（gene locus）。其中，超过三分之一是反义（antisense）转录本，很多来自内含子。把这些lncRNA和之前发现的lncRNA加起来，作者最终得到18,484个lncRNA。再加上其他各种非编码RNA，最终非编码RNA的总数是21856。

作者还分析了可变剪切的情况。每个蛋白基因平均含12.5个isoform，而lncRNA只有2.6个。

借助来自不同组织器官的丰富的RNA-seq样本，作者用DESeq2对基因的表达情况进行了分析。Breast成为protein-coding gene男女差异最大的器官。

图片来自(11)，CC-BY4.0

而testis则拥有最多上调表达的编码蛋白的基因。

图片来自(11)，CC-BY4.0

最后，需要说明的是，基因的定义是有争议的话题。人们起初认为能表达的就是基因，但后来的转录组学揭示了广泛的非编码区转录现象，而其中的很多转录本可能只是转录噪声（transcription noise）。这篇preprint里，作者们以转录证据为起点并试图去除这些噪声转录本，再结合进化证据，也就是说基因要在不同物种中有一定保守性，且在不通个体中都可以看到转录（作者称为reproductivity）。基于以上三点，作者在已有的基因组注释的基础上对人类基因组进行了新的注释。

虽然关于人类到底有多少（编码蛋白）基因的争论可以说暂告段落，但科学家们还在对更多与此相关的问题进行着火热的研究。一方面，RNA科学家雄心勃勃地拓展着lncRNA的版图；而另一方面，对于已知基因功能的解读还有漫漫长路。

图片来源：https://study.com/academy/lesson/what-are-genes-definition-types-function.html

引文

1. Mirsky AE, Ris H. The desoxyribonucleic acid content of animal cells and its evolutionary significance. J Gen Physiol. 1951;34(4):451-62.

2. Crick FH, Barnett L, Brenner S, Watts-Tobin RJ. General nature of the genetic code for proteins. Nature. 1961;192:1227-32.

3. Schuler GD, Boguski MS, Stewart EA, Stein LD, Gyapay G, Rice K, et al. A gene map of the human genome. Science. 1996;274(5287):540-6.

4. Antequera F, Bird A. Predicting the Total Number Of Human Genes. Nature Genet. 1994;8(2):114-.

5. Fields C, Adams MD, White O, Venter JC. How Many Genes In the Human Genome. Nature Genet. 1994;7(3):345-6.

6. Liang F, Holt I, Pertea G, Karamycheva S, Salzberg SL, Quackenbush J. Gene Index analysis of the human genome estimates approximately 120,000 genes. Nature Genet. 2000;25(2):239-40.

7. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial sequencing and analysis of the human genome. Nature. 2001;409(6822):860-921.

8. Consortium EP. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science. 2004;306(5696):636-40.

9. Pertea M, Salzberg SL. Between a chicken and a grape: estimating the number of human genes. Genome Biol. 2010;11(5).

10. Team MGCP, Temple G, Gerhard DS, Rasooly R, Feingold EA, Good PJ, et al. The completion of the Mammalian Gene Collection (MGC). Genome Res. 2009;19(12):2324-33.

11. Pertea M, Shumate A, Pertea G, Varabyou A, Chang Y-C, Madugundu AK, et al. Thousands of large-scale RNA sequencing experiments yield a comprehensive new human gene list and reveal extensive transcriptional noise. bioRxiv. 2018.

更多精彩内容，欢迎关注生信人

一个物种一个家

TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue

基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图